''' todo: 数据的过滤,如去重 过滤领域数据等
1. exact 去重
2. 规则过滤： 与已有问题相似度超过0.7的丢弃（bleu，rouge）、语言过滤、乱码、正则、 关键词（停用词、敏感词） 关键词生成（tf-idf） 新词发现 优化分词
3. 领域过滤：
    1. 领域分类模型
    2. 向量相似度检索
        3.2.1 如果有seed领域数据，可以计算和无标签数据的向量相似度，取topk相似的样本
        3.2.2 可以训练一个领域的语言模型，进行ppl的计算，ppl(领域)-ppl(非领域)
        3.2.3 领域样本的平均向量d，与所有无标签的文本计算相似度
4. 文本聚类... 参考百川2的报告
'''
from .tfidf import extract_keywords_by_tfidf